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文件 系统 的 发 展 脉络 
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摘 要 :本 文 回顾 了 文件 系统 的 发 展 历程 ， 从 计算 机 技术 重大 进步 的 全 景 考察 文件 系统 的 发 展 脉络 ， 分 析 现 
有 各 种 文件 系统 产生 的 技术 背景 ， 并 预测 未 来 的 数据 中 心 文件 系统 可 能 的 技术 创新 。 同 时 ， 本 文 还 简要 地 
总 结 了 20 年 来 我 们 在 文件 系统 方面 的 研究 工作 。 


1 引言 


数据 是 信息 的 载体 ,文件 系统 是 持久 保存 数据 和 管理 数据 的 一 种 最 普遍 、 最 基本 的 手段 。 
随 着 应 用 需求 的 变化 和 计算 机 技术 的 进步 ,文件 系统 也 逐渐 演变 发 展 , 形成 了 多 种 不 同类 型 。 
| 它们 有 各 自 的 应 用 场景 和 不 同 的 特点 。 按 照 它们 出 现 的 先后 顺序 , 文件 系统 可 划分 为 单机 文 
~ 件 系统 、 网 络 文件 系统 、 并 行文 件 系统 和 分 布 式 文件 系统 1。 值 得 强调 的 是 ， 这 些 不 同类 型 
N 的 文件 系统 之 间 并 不 是 一 种 进化 关系 , 不 是 后 一 种 文件 系统 出 现 就 意味 着 前 一 种 文件 系统 就 
消 应 了。 它们 共同 存在 、 共 同 发 展 ， 分 别 服务 于 不 同 的 应 用 需求 。 


在 当今 这 个 信息 爆炸 时 代 , 数据 变 得 越 来 越 重要 。 越 来 越 多 的 应 用 需要 处 理 越 来 越 庞大 
的 数据 集 。 而 且 ， 科 学 与 工程 计算 、Web2.0， 以 及 近年 热 起 来 的 云 计 算 、 虚 拟 化、 移动 终端 
等 ， 都 加 剧 和 加 速 了 数据 量 的 膨胀 。 在 新 的 应 用 需求 下 ， 业 界 掀 起 了 开发 文件 系统 的 热潮 。 
< 很 多 互联 网 公司 和 存储 公司 都 在 开发 自己 的 文件 系统 , 甚 全 一 些 应 用 单位 也 在 根据 自己 应 用 
C3 的 特点 开发 专用 文件 系统 。 在 这 种 形势 下 人们 自然 要 问 : 现 有 文件 系统 在 哪里 出 了 问题 ? 
未 来 的 文件 系统 应 该 是 什么 样 的 ? 为 了 探讨 这 些 问题 , 我 们 试图 从 计算 机 技术 重大 进步 的 全 
景 来 考察 文件 系统 的 发 展 脉络 ， 分 析 现 有 文件 系统 产生 的 背景 和 未 来 可 能 的 技术 创新 。 


X 2 单机 文件 系统 


文件 系统 是 操作 系统 用 来 管理 文件 和 存储 空间 的 子 系统 , 因此 它 是 操作 系统 必 不 可 少 的 
一 部 分 。 正 由 于 这 个 因素 ,文件 系统 是 伴随 着 操作 系统 的 产生 而 逐渐 出 现 的 。 汉 森 (P. Hansen? 
总 结 了 操作 系统 的 主要 发 展 阶段 和 每 个 阶段 的 主要 技术 创新 路， 如 表 1 所 示 。 


现代 文件 系统 的 起 源 要 追溯 到 分 时 操作 系统 时 期 。 在 分 时 操作 系统 出 现 之 前 , 计算 机 采 
用 批 处 理 方式 , 把 一 批 作业 以 脱 机 方式 输入 到 磁带 上 , 在 监督 程序 的 控制 下 一 个 作业 接 一 个 
作业 地 连续 处 理 。 作 业 和 数据 通过 穿孔 卡片 输入 计算 机 , 永和 久保 存在 磁带 或 磁 鼓 等 外 玮 存储 
设备 上 。 这 种 方式 存在 交互 性 差 以 及 作业 周转 时 间 长 等 问题 。 为 了 满足 用 户 人 机 交互 、 共 享 
主机 、 便 于 用 户 上 机 的 需求 ， 再 加 上 磁盘 技术 在 当时 的 发 展 ， 研 究 者 们 提出 了 分 时 操作 系统 
(Time Sharing Operating System)， 其 中 较为 著名 的 就 是 Multics 。 


Multics 是 1965 年 左右 由 美国 电话 电报 公司 (AT&T) 贝尔 电话 实验 室 、 通 用 电气 公司 、 
REALCE MAC 课题 组 一 起 联合 开发 的 一 个 多 用 途 〈General-Purpose ) 、 分 时 
(Time-Sharing) KJH (Multi-User) 的 操作 系统 中。 其 目标 是 要 能 够 支持 众多 用 户 同时 
使 用 计算 机 ,提供 强 大 的 数据 存储 ， 以 及 允许 用 户 能 够 容易 地 共享 他 们 的 数据 。 开 发 者 们 发 


出 | 


”本 文 的 分 布 式 文件 系统 特 指 服务 于 互联 网 应 用 海量 数据 存储 需求 的 分 布 式 文件 系统 。 
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表 1. 操作 系统 的 主要 发 展 阶段 及 其 主要 技术 创新 UI 


主要 阶段 操作 系统 技术 创新 
开放 式 计算 站 (Open Shop) IBM 701 open shop(1954) 操作 系统 的 概念 
批 处 理 BKS system(1961) 磁带 批 处 理 、 先 入 先 出 调度 


处 理 器 复 用 、 原 子 操作 (Indivisible 


eae rae operations). Hn 分 页 、 读 写 外 部 设 
多 程序 设计 备 联机 并 行 操作 CInput/output 
Exec II system(1966) : dE pO un 
spooling)、 优 先 级 调度 、 远 程 作业 
Egdon system(1966) PN 
输入 
CTSS(1962) 
分 时 系统 Multics file system(1965) ， 即时 用 户 交 互 〈Simultaneous user 
Titan file system(1972) interaction)、 在 线 文件 系统 
UNIX(1974) 
THE system(1968) 
RC 4000 system(1969) 层次 结构 系统 、 可 扩展 内 核 
并 发 编程 Venus system(1972) (Extensible kernels)、 并 行程 序 设计 
a Boss 2 system(1975) ”概念 、 安 全 并 行 语言 (Secure parallel 
Solo system(1976) languages) 
Solo program text(1976) 
OS 6(1972) 
Ns Alto system(1979) MEER 
TANG Pilot system(1980) E AGU 
Star user interface(1982) 
WES file server(1979) 
Unix United RPC(1982) ee ) 
G Unix United system(1982) puru. 
Amoeba system(1990) 


表 了 一 系列 有 关于 Multics 的 文章 ， 其 中 一 篇 就 描述 了 Multics 文件 系统 所 需要 的 特性 和 结 
构 趾 。 在 这 篇 文章 中 首次 提出 使 用 树 型 结构 ， 而 不 是 使 用 之 前 的 平面 结构 (例如 DECtape) 


来 组 织 来 文件 、 目 录 的 思想 ,同时 也 提出 了 对 于 文件 和 目录 的 访问 控 仙 


件 系统 的 发 展 基 础 。 
2.1 Unix 文件 系统 和 FFS 


HJ 


1， 从 而 芮 定 了 现代 文 


Multics 项 目 中 很 多 重要 的 思想 和 设计 理念 影响 着 当时 参与 这 个 项 目的 贝尔 实验 室 的 两 
位 软件 工程 师 汤 普 逊 (Ken Thompson) 与 瑞 奇 (Dennis M.Ritche )。1969 年 , 在 他 们 为 DEC 


PDP-7 开发 操作 环境 UNICS 时 ， 借 鉴 了 很 多 Multics 的 设计 思想 。 后 来 ， 这 个 系统 被 称 为 


UNIX。 当 时 的 UNICS 包含 两 大 功能 : (1) 一 个 简单 的 文件 系统 ， 即 PDP-7 file system"), 
它 后 来 发 展 成 为 UNIX 文件 系统 的 早期 版 ; (2) 一 个 进程 子 系统 和 shell (命令 解释 器 )。 其 


中 的 PDP-7 file system 借鉴 了 引文 [3] 中 的 很 多 思想 ， 而 且 它 使 用 了 i- 节点 (i-node) 来 
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文件 系统 很 相似 了 。 


1973 年 ， 汤 普 进 和 瑞 奇 使 用 C 语言 对 UNIX 进行 了 再 加 工 和 编写 ， 使 得 UNIX 能 够 很 


容易 地 移植 到 其 他 计算 机 上 。 之 后 , 他 们 发 表 了 首 篇 UNIX 论文 一 一 《UNIX 分 时 系统 (The 
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UNIX Time Sharing System)》 趾 。 这 篇 文章 不 但 葛 定 了 现代 UNIX 操作 系统 的 结构 ， 而 且 首 


次 提出 以 “ 流 ” 的 方式 来 实现 文件 的 访问 ， 提 供 了 极 大 的 灵活 性 ， 从 此 黄 定 了 文件 系统 的 基 


本 结构 、 功 能 和 接口 


。 而 这 时 的 文件 系统 一 般 称 为 UNIX 文件 系统 。 


UNIX 文件 系统 是 现代 文件 系统 的 一 个 基础 模型 。 从 结构 上 看 , 它 是 从 PDP-7 文件 系统 


衍化 而 来 的 。 它 四 个 主要 模块 是 引导 块 、 


超级 块 、i- 节 点 、 数 据 块 ， 这 些 都 被 运用 到 了 之 后 


的 文件 系统 中 。 而 且 它 的 设计 简单 ， 大 大 减少 了 工作 量 。 但 是 它 也 有 很 多 缺点 : 磁盘 分 配 的 


RA 
SEF 


K, 而且 不 够 可 
小 增加 


1984 年 ， 加州 大 学 伯克利 分 校 的 而 


单位 为 512 字 节 ， 系 统 的 性 能 低下 ， 吞 吐 


=. 
tH 


有 了 磁盘 带宽 的 296—596, iE; C/O) 时 间 过 
虽然 BSD“ 在 1978 年 设计 了 fscks 来 修复 文件 系统 ,通过 把 磁盘 块 大 
到 1KB， 将 性 能 提升 了 2 倍 ， 但 仍然 没有 彻底 解决 性 能 问题 。 


究 者 提出 了 快速 文件 系统 FFSI。 


注重 于 读 


写 性 能 优化 的 文件 系统 ， 也 可 以 认为 是 现代 文 伯 


仍 在 使 用 。 


为 了 提高 读 写 性 能 ，FFS 将 磁盘 分 配 单位 大 


Zu 


XH 


JODIE 


系统 的 鼻祖 。 它 提出 的 逢 方法 至 今 


14%—47%; 同时 为 了 减少 碎片 而 导致 的 
一 个 数据 块 (block) 分 割 成 多 个 


HE 


组 | 


Ae 
A o 


2.2 单机 文件 系统 的 发 展 
2.2.1 日 志 结构 文件 系统 LFS 


1992 年 ， 
系统 作为 日 志 来 实现 。 日 


t 


LFS (Log-structured File System, H 
志 结 构 文件 系统 主要 解决 磁盘 在 大 量 小 粒度 随机 写 负载 时 


问题 。 它 定义 了 以 segment (“ 段 ” 
加 到 已 存在 的 日 


i=) 


EX 


志 (append to log)” 


连续 的 磁盘 块 组 成 ) 为 基本 的 磁盘 存 取 单 
的 方式 将 数据 写 入 到 磁盘 
后 写 入 磁盘 的 内 容 就 可 以 处 理 机 器 骨 溃 等 异常 。 但 是 同时 带 来 的 问 
用 完了 ， 就 需要 进行 segment 清理 。 这 个 阶段 会 占 


E 离 最 小 。 其 他 改进 还 有 长 文件 名 、 


再 度 提 高 到 4KB， 磁 盘 带 宽 的 利用 达到 了 


SIRS, EMH Sor Cfragment) 方法 ， 将 
固定 大 小 的 片 ， 小 文件 以 片 为 粒度 分 配 空间 ， 从 而 节省 了 


为 了 减少 磁头 寻 道 时 间 ，FFS 将 磁盘 划分 为 若干 个 柱 面 组 〈cylinder group )， 每 个 柱 面 
若干 连续 的 柱 面 组 成 ， 其 中 包含 各自 独立 的 超级 块 、i- 节 点 区 和 数据 块 。FFS 可 以 将 相 
关 的 数据 存在 同一 柱 面 组 中 ， 从 而 使 磁头 移动 


Asks 


符号 链接 


志 结构 文件 系统 ) "第 一 次 提出 将 文件 
性 能 差 的 
y, D 
上 ,这 样 的 好 处 是 只 需要 检查 
题 是 ,一 旦 日 志 的 空间 


XE AE » RED 
用 绝 大 部 分 的 磁盘 带宽 ， 从 而 影响 LES 


的 性 能 。 另 外 ，LEFS 虽然 将 很 多 小 粒度 的 写 请 求 聚集 成 为 
日 是 读 取 的 时 候 数 据 是 分 散在 各 个 segment 中 的 ， 会 造成 对 磁盘 小 粒度 的 随机 读 ， 因 


个 segment, 让 其 性 能 大 大 提升 ， 
而 读 性 


f 
的 内 存 Flash) 存储 介质 出 现 后 ，# 
2.2.2 可 扩展 文件 系统 XFS 


XFS” Æ SGI 公司 1994 开发 出 来 文 


术 ， 文 件 系统 大 小 不 能 超过 4-8GB， 文 件 长 不 能 超过 2-4GB. ifi H 
AUN 
需要 2.7TB 的 磁盘 空间 , 同时 支持 200 个 MPEG 


数量 多 时 ， 查 找 效率 很 低 。 而 当时 的 视频 
例如 , 当时 的 VOD 服务 器 保存 1000 部 影 


受 很 大 影响 。 因 此 LES 的 思想 和 方法 在 磁盘 文件 系统 中 未 得 


到 普遍 使 用 。 直 到 NAND 型 


民 多 闪存 文人 


牛 系统 。 在 它 之 前 的 文件 系统 都 条 


系统 都 借鉴 了 LFS. 


类 似 FFS 的 技 
录 采 用 线性 组 织 ， 文件 


i 


需要 很 高 的 读 写 带 宽 和 很 大 的 存储 空间 。 


流 需 要 100MB/s 的 VO 带宽 CEA MPEG 流 的 速度 是 4Mbps，200 个 并 发 MPEG 流 的 总 速 


RIA 


? Berkeley Software Distribution, f| 


3 UNIX 及 与 其 类 似 的 操作 系统 上 的 一 个 工具 ， 


3 


,是 Unix 的 衍生 系统 
以 检查 文件 系统 的 一 致 性 


度 是 800Mbps)。 


XFS 主要 创新 在 于 突破 了 以 
制 ， 主 要 通过 将 数据 库 系统 9 
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位 的 日 志文 件 系统 ， 


增强 了 其 可 靠 性 。 在 设计 时 ，XFS 充分 考虑 了 系统 的 可 扩 
在 于 B+ 树 的 优越 性 能 和 极 好 下 


因此 可 以 管理 极 大 的 磁盘 


的 可 扩展 性 ) 来 组 织 管 


Hon H 


HG Tit 


间 、 文 件数 据 块 等 ; 


长 单元 (extent)” 管 


系统 可 以 动态 扩展 。 


XFS 使 用 缓存 技术 来 提高 每 次 写 入 磁盘 的 数据 量 


间 并 提高 系统 吞吐 量 。 


基于 该 文件 系统 。 


由 于 XFS 的 高 性 能 、 


2.2.3 ZB 级 文件 系统 ZFS 


2004 年 ，Sun 公司 发 布 了 ZFS., ZFS 既是 几 十 年 来 文件 系统 优秀 技术 的 集大成 者 ， 


(延迟 高 达 30s)， 以 减少 磁盘 寻 道 时 


前 文件 系统 在 存储 容量 、 文 件 大 小 、 文 件数 量 等 方面 的 限 
PAY B+ 树 索引 技术 和 日 志 技术 引入 到 文件 系统 中 。XFS 是 64 
空间 和 数据 ， 也 允许 意外 重启 后 的 快速 恢复 ， 
展 性 ， 大 量 采 用 B+ 树 结构 (原因 
录 这 样 的 数据 ; 结合 B+ 树 和 “ 变 
基于 文件 的 方式 管理 -节点 ， 


因此 文件 


同时 引入 了 “分 配 组 ”的 概念 ， 以 便 能 有 效 地 处 理 并 行 读 写 。 
恨 好 的 伸缩 性 、 健 壮 性 ， 迄 今 仍 在 大 量 使 用 ， 很 多 存储 产品 都 是 


更 是 一 次 对 已 有 技术 彻底 的 颠覆 和 重生 。 它 从 根本 上 改变 了 文件 系统 的 管理 方式 。 其 主要 特 


征 包 括 : 


ZFS 设计 了 全 新 的 文 伯 
功能 ， 提 出 “存储 池 ” 的 概念 来 管理 物 型 
构 本 身 却 变 得 更 加 清晰 、 精 


F 系 统 结构 ,高效 地 整合 了 过 去 文人 


jo ZFS 能 够 


数据 实现 元 余 保 护 ; 采用 “ 写 时 复 人 
数据 一 致 性 ， 能 够 高 效 地 创建 快照 ， 为 数据 提供 
的 文件 系统 ， 可 以 说 在 相当 长 的 未 来 时 间 内 ，ZFS 几乎 不 太 可 能 出 现存 储 空间 不 足 的 问题 。 
因此 ，ZFS 在 当时 又 被 Sun 称 为 是 终极 文件 系统 。 


2.3 负载 特征 和 性 能 评价 


单机 文件 系统 的 负载 是 多 进程 } 


出 事务 模型 (Copy-on-write 


发 访问 和 交互 式 访问 。 因 


标准 包括 聚合 读 写 带宽 和 读 写 请 求 响应 时 间 。 


3 ”网 络 文件 系统 


在 20 世纪 70 ERF 


早期 的 大 型 机 分 时 系统 配合 终端 的 使 


F 系 统 的 “ 卷 管理 ”功能 和 RAID 
存储 空间 ， 极 大 地 简化 了 系统 管理 ， 而 文件 系统 结 
动 检测 并 修改 文件 数据 的 损坏 ; 对 文件 系统 的 元 


Transactional Model)” 来 维护 


了 最 全 面 的 保护 。 而 且 ZFS 是 一 个 128 位 


Jb, 单机 文件 系统 的 性 能 评价 


用 方式 就 可 以 认为 是 一 种 网 络 , 节点 分 布 在 不 同 物 


理 位 置 。 这 种 早期 的 网 络 连接 基于 电路 交换 技术 ， 带 宽 利 用 率 低 且 可 靠 性 差 。 直 到 分 组 交换 
技术 的 出 现 ， 才 使 得 组 建 可 靠 的 大 规模 网 络 成 为 可 能 。 


80 年 代 ， 出 现 了 剑桥 环 、 
化 的 局 域 网 技术 。1974 年 为 了 互 连 各 种 不 同 网 络 而 ! 
Defense Advanced Research Project Agency) 主导 所 


ARPANET03 全 部 转 入 TCP/IP 协议 ， 成 为 互 


令 牌 环 、 星 形 网 络 等 各 种 实验 性 和 商业 
美国 国防 部 高 等 研究 计划 局 (DARPA， 
HH 了 TCP/IP 
联网 的 雏形 。 而 在 局 域 网 的 技术 方面 ， 施 乐 公 


网 络 协议 中 。1983 年 


Fi) Iie 
逐渐 


4 Redundant Array of Inexpensive Disks ， 


洛 阿 尔 托 研 究 中心 (Xerox PARC) 发 明 
成 为 工业 标准 。 


局 域 网 在 各 种 应 用 场合 天 


JUR RT WE 


的 以 太 网 技术 由 于 技术 优秀 以 及 大 厂商 的 推广 
F 始 得 到 广泛 使 用 。 


列 
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3.1 早期 的 网 络 文件 系统 


施乐 帕 洛 阿尔 托 研 究 中 心 先进 的 实验 室 环境 由 Alto 个 人 电脑 和 以 太 网 组 成 ， 并 且 先 于 
TCP/IP 的 标准 制定 开发 了 PUP (PARC Universal Packet) 网 络 协议 0 用 在 实验 室 的 以 太 网 环 
境 。 在 开发 网 络 文件 系统 之 前 , 帕 洛 阿尔 托 研究 中 心 使 用 的 是 运行 Tenex ABE A ngu 
为 文件 服务 器 ， 使 用 基于 PUP 协议 的 FIP” 服务 来 访问 文件 。 随 着 文件 规模 的 增 大 ， 为 了 方 
便 研究 人 员 的 工作 , 帕 洛 阿尔 托 研究 中 心 的 研究 人 员 开 发 了 最 早 的 网 络 文件 系统 之 一 IFS09 
来 满足 需求 。 


IFS 和 后 来 的 XDFS0I、 以 及 剑桥 大 学 的 CFS04 等 ， 这 一 类 的 分 布 式 系统 一 般 被 称 为 文 
件 服务 器 (File Server) 而 非 文件 系统 (File System). IFS 提供 了 网 络 环境 下 客户 端 访问 服 
务 端 文件 的 各 类 接口 ， 其 实现 基于 FTP， 并 具有 备份 、 归 档 等 管理 功能 ， 但 在 这 类 系统 中 访 
问 文件 的 接口 和 访问 本 地 文件 的 方式 是 不 同 的 ， 也 就 是 不 具有 网 络 透明 性 中 9。 


Newcastle Connections 是 纽卡斯尔 大 学 开发 的 网 络 文 件 系 统 , 运行 在 PDP-11 的 UNIX 
操作 系统 环境 ， 提 供 具备 网 络 透 明 性 的 文件 系统 方案 。Newcastle Connection 系统 将 剑桥 环 
局 域 网 中 的 UNIX 主机 组 成 一 个 共享 的 名 字 空 间 , 文件 在 共享 名 字 空 间 中 由 主机 名 的 前 级 和 
本 地 路 径 标 识 。Newcastle Connection 中 提供 了 类 似 本 地 文件 系统 访问 文件 的 方式 来 访问 分 
布 式 环境 中 的 文件 , 但 名 字 空 间 的 设计 决定 了 其 文件 名 字 与 物理 地 址 相 绑 定 , 不 具备 位 置 透 
明 性 。 此 后 的 Locus 系统 提供 了 一 个 具有 位 置 透明 性 的 名 字 空 间 , 使 得 分 布 式 系统 的 使 用 和 
管理 更 加 方便 。 


= 


3.2 NES 和 AFS 


TCP/IP 和 以 太 网 的 出 现 ， 使 得 局 域 网 在 各 种 应 用 场合 开始 得 到 广泛 使 用 。 在 局 域 网 环 
境 中 ,用 户 和 数据 分 散在 网 络 中 的 各 个 机 器 上 ， 用 户 迫 切 需 要 在 不 同 机 器 之 间 共 享 数据 。 最 
初 的 解决 方案 是 将 整个 文件 从 一 个 机 器 复制 到 另 一 个 机 器 上 ， 比 如 UUCP A ETP, xx 
种 方法 对 于 部 分 需求 来 说 简单 可 行 ， 但 不 够 理想 。 比 如 ， 数 据 在 多 个 机 器 上 宛 余 存储 ， 维 护 
这 些 见 余数 据 的 最 新 版 本 也 不 方便 ,为 了 让 用 户 能 够 以 访问 本 地 文件 系统 的 方式 来 访问 远程 
机 器 上 的 文件 ， 各 种 类 型 的 网 络 文件 系统 应 运 而 生 。 


在 1975-1985 年 间 产 生 了 许多 不 同 设 计 风 格 的 网 络 文件 系统 。 但 最 终 得 到 广泛 使 用 的 主 
要 是 两 种 : NFS 22 信和 AFS8YDFSP23。 它 们 并 没有 全 面 超越 同时 代 的 其 它 系 统 ， 但 因为 其 突 
出 的 优点 而 适用 于 各 自 的 使 用 环境 。 


(1). NES 


NFS 由 Sun 公司 在 1984 年 开发 。NFS 使 用 IP 或 UDP 协议 传输 ， 被 认为 是 第 一 个 得 到 
广泛 应 用 的 现代 网 络 文件 系统 。NFS 的 核心 设计 目标 是 提供 跨 平台 的 文件 共享 系统 。 它 使 
用 平台 无 关 的 XDR%5 数 据 描述 编码 的 协议 ， 文 件 操作 通过 RPCI1P5 机 制 实现 。 除 此 之 外 为 
了 实现 用 户 使 用 的 透明 性 , Sun 公司 在 4.2BSD UNIX 内 核 基础 上 实现 了 VES, 使 得 NFS 
用 户 可 以 用 几乎 完全 相同 的 方式 访问 本 地 和 远程 文件 系统 。NFS 的 协议 被 纳入 REC 标准 


^ File Transfer Protocol， 文 件 传输 协议 

* Unix-to-Unix Copy 

7 Network File System， 网 络 文件 系统 

5 Andrew File System， 安 德 鲁 文件 系统 

? External Data Representation Standard， 外 部 数据 表示 标准 
10 Remote Procedure Call Protocol， 远 程 过 程 调用 协议 

11 Virtual File System， 虚 拟 文件 系统 


i 


文件 系统 的 发 展 脉络 


并 且 其 实现 和 设计 思想 都 相对 人 简单， 容易 进行 怕 
和 学 术 界 都 获得 了 大 量 应 月 


NFS 使 用 无 状态 协议 ， 优 点 是 实现 简单 而 且 错误 恢复 容易 ， 缺 点 是 传输 元 余 指 令 多 
以 及 无 法 支持 完整 的 UNIX 文件 系统 语义 ， 比 如 文件 加 锁 等 。 除 此 之 外 ，NFS 单一 服务 器 
的 结构 也 决定 了 它 的 扩展 性 有 限 。 


(2. AFS 5 DCE/DFS 


AFS 是 卡 内 基 梅 隆 大 学 1982 年 开始 开发 的 分 布 式 文件 系统 。 其 设计 目标 是 支持 


5000-10000 个 节点 的 集群 ， 
群 中 有 专用 服务 器 ， 并 日 


客户 端 分 担 。 因 此 ，AFS 上 上 


AFS 中 有 多 个 服务 器 ， 


| 为 了 防止 


扩展 性 是 首要 考虑 因素 。 首 先 与 NFS 等 系统 不 同 的 是 ，AFS 集 
服务 器 的 CPU CUR I, AFS 系统 部 分 计算 任务 
E NFS 具有 更 好 的 扩展 性 。 


整个 名 字 空 间 被 较 吏 


一 组 客户 端 形成 一 个 小 的 集 和 
系统 避免 跨 集 群 的 操作 以 保证 性 能 。 


里 、 迁 移 ， 卷 与 物理 服务 器 的 位 置 映射 


E 能 调 优 。 所 以 NFS 被 广泛 接受 ， 在 产业 界 


2 


E. “SRF 


用 a 
AFS 为 


时 为 了 降低 服务 器 计算 负担 , AFS 的 客 广 
受 限 于 会 话 级 别 ( 一 个 会 话 是 从 打开 文 伯 


存 一 致 性 的 保证 机 制 增加 了 系统 


T 


样 很 好 地 支持 无 盘 工 作 站 。 


1989 年 Transarc 公司 接管 AFS 的 


态 地 划分 到 各 个 服务 器 上 。 一 组 服务 器 和 
FE 干 局 域 网 (backbone LAN) 互 连 。 一 般 来 说 
用 户 提供 统一 的 名 字 空 间 ， 并 以 卷 为 单位 进行 
[保持 在 一 个 数据 库 中 并 在 所 有 服务 器 均 有 备份 。 
! 端 在 本 地 磁盘 缓存 整个 文件 。 缓 存 的 策略 使 得 AFS 
开始 ， 到 关闭 文件 为 止 ) 的 共享 语义 支持 ， 并 且 组 
杂 度 ， 同 时 本 地 磁盘 的 缓存 使 用 使 得 AFS 不 能 像 NFS JI 


同 


发 和 产品 化 工作 ,最 终 研制 出 的 系统 被 称 为 DCE”, 
DFS". DFS 从 AFS 演化 而 来 ， 做 了 以 下 几 个 方面 的 改进 ”: 


1. DFS 中 ， 一 台 机 器 既 可 以 是 客户 机 又 可 以 是 服务 器 。 
2. DES 提供 了 类 似 UNIX 的 共享 语义 和 一 致 性 保证 机 制 《〈 读 写 操作 级 别 )。 


3. DFS 可 以 跟 其 他 文人 


系统 有 更 好 的 互 操作 性 。 


但 DFS 体系 结构 很 复杂 ， 不 仅 需 要 DCE RPC， 而 且 需 要 X.500 全 
务 ， 在 小 的 机 器 和 简单 的 操作 系统 | 


3.3 负载 特征 和 性 能 评价 


网 络 文件 系统 的 负载 是 多 用 户 共 享 文件 访问 , 通常 是 各 个 用 户 从 不 同 的 客户 端 访问 各 自 
的 文件 ， 也 存在 多 用 户 对 同一 文件 的 共享 访问 ,不 过 以 共享 读 为 主 。 用 户 对 单个 读 写 访问 


性 


3.4 网 络 存 储 
随 着 存储 容量 的 不 断 增 大 ,以 及 用 户 对 于 数据 安全 性 和 可 靠 性 需求 的 提高 ,， 存储 设备 逐 


f 从 处 理 业务 逻辑 的 主机 


Distributed Computing Environment, 分 布 式 计算 环境 


TAHR, H 


HILT JBOD, RAID 磁盘 阵列 等 设备 ， 提 供 高 性 
能 、 高 可 靠 的 存储 服务 。 但 以 传统 的 SCST 线 缆 连 接 存储 设备 终究 无 法 满足 快速 增长 的 扩展 
生 要 求 ， 同 时 多 种 多 样 的 存储 设备 给 整个 信息 技术 设施 管理 带 来 很 大 的 复杂 性 ,于 是 出 现 


上 很 难 支持 DCE/DES 。 


局 目录 服务 等 相关 服 


的 


能 要 求 并 不 高 ， 但 由 于 需要 支持 多 个 用 户 并 发 访问 ， 因 此 ， 要 求 比较 高 的 窜 合 读 写 带 宽 。 
网 络 文件 系统 的 性 能 评价 标准 以 聚合 读 写 带 宽 为 主 。 


P? Distributed File System， 分 布 式 文件 系统 〈 此 处 并 非 指 Windows 的 分 布 式 文件 系统 DFS) 
^ Justa Bunch Of Disks， 磁 盘 复 ,在 一 个 底板 上 安装 的 带 有 多 个 磁盘 驱动 器 的 存储 设备 


15 Small Computer System Interface， 小 型 计算 机 系统 接口 
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网 络 化 的 存储 架构 2 。 网 络 化 存储 的 软 硬 件 主要 需 解决 存储 的 集中 管理 和 扩展 性 两 个 问题 ， 
做 到 在 满足 大 容量 存储 需求 的 同时 节约 成 本 、 方 便 管理 。 
施乐 帕 洛 阿 尔 托 研究 中 心 构建 的 以 太 网 环境 中 ， 已 经 有 了 Alto 用 作 服 务 器 的 文件 共享 
概念 。 之 后 的 3Com 公司 大 力 推 广 以 大 网 的 同时 开发 了 运行 在 DOS 系统 的 3+Share 网 络 文 
件 共享 服务 。 同 时 3Com 公司 为 3+Share 开发 制造 了 专用 服务 器 3Server。3Server 使 用 X86 


架构 和 DOS 操作 系统 ， 但 没有 对 键盘 ， 显 示 器 等 设备 的 支持 ， 而 它 拥有 7 个 磁盘 可 


及 相应 的 管理 软件 , 专 为 提供 存储 共享 服务 而 
存储 设备 的 发 展 产 生 了 很 大 影响 。 在 此 之 后 ， 
NFS 等 开放 标准 的 文件 服务 器 ， 
服务 性 能 ， 这 样 就 出 现 了 称 为 NAS* 的 存储 架 


通过 专门 设计 的 硬 们 


EH, bh 
服务 器 硬件 的 设计 思路 对 
始 为 UNIX 开发 制造 支持 


操作 系统 来 达到 很 高 的 文件 


设计 制造 。 这 种 专 
Auspex 等 公司 也 


-和 定制 的 


J 


p, 


NAS 指 的 是 在 以 太 网 环境 中 ， 


(Client/Server) 存储 架构 ， 利 于 在 成 本 经 济 的 同时 提供 
系统 。 典 型 的 是 在 UNI 


存储 服务 器 文人 


级 交互 的 就 是 NAS 网 络 文人 


i em XE BER 


端 存 储 服 务 器 的 客户 /服务 器 
高 性 能 的 存储 服务 。 解 决 客户 端 和 
X/LINUX 上 使 用 的 NFS 


和 Windows 上 使 用 的 CIFS。NAS 网 络 文件 系统 同时 运行 在 客户 端 和 服务 器 上 , 通过 以 太 网 


传输 某 种 协议 的 VFS (虚拟 文件 系统 ) E 


统 的 访问 功能 。 对 于 NAS 系统 来 说 ， 显 


N 
v 


Ho, OA LER PUR RPC 调 
著 特 点 是 将 文件 系统 的 管理 


AS 主要 是 集中 管理 存储 设备 ， 并 提供 文件 共享 服务 。 从 存储 设备 的 扩展 性 


用 服务 器 的 文人 
FPF 到 了 服务 器 端 。 


角度 来 说 


ES 


A 
f 


H 


zi 


光纤 通道 


na 


(Fibre Channel) 技术 的 发 展 使 得 通过 


个 高 速 、 可 靠 的 网 络 来 连接 更 大 量 的 磁盘 


+e 


和 磁带 等 设备 成 为 可 能 。 也 就 是 说 ， 用 光纤 ; 


取代 SCSI 线 缆 ， 在 存储 服务 器 的 读 写 总 线 


IR SF 


HIE 


os 


与 存储 设备 之 间 通 过 一 个 光纤 通道 网 络 进行 连接 ， 这 就 是 SAN 存储 架构 中。 


SAN 架构 ) 


各 多 种 存储 设备 形成 一 个 统一 访问 、 统 


pees 
E 
E 


的 存储 池 网 络 。 与 文件 级 别 的 


NAS ^l], SAN 通过 高 速 光纤 通道 网 络 进行 的 是 块 级 的 数据 
F} 系 统 层 通 信 的 开销 ， 并 且 在 块 级 传输 中 使 用 光纤 i 
PERE, (E NAS 架构 也 有 其 明显 的 优势 ，(1) 


太 网 与 文人 
提供 较 高 的 读 写 
机 ， 成 本 大 大 降低 ; (2) 基于 TCP/IP, PH 


而 文件 系统 分 离 在 各 个 客户 端 上 的 SAN 架构 则 做 不 3 


SAN 有 其 性 能 上 的 优势 ， 而 NAS 则 有 低 
SAN 架构 中 必须 有 集中 管理 的 系统 。 一 种 解决 
网 关 来 访问 底层 SAN 架构 的 存储 。 另 一 种 办 
SAN 文件 系统 。 


系统 提供 了 共享 访问 SAN 存储 


SAN 文人 
管理 的 问题 。 
的 集中 式 元 数据 管 到 
客户 端 获 得 元 数据 信 ， 
经 过 NAS 服务器， 使 SAN 架构 较 高 的 读 写 怕 


并 行文 件 系统 


F 代 后 期 ， 石 ; 


4 


20 世纪 80 4 


在 


16 Network Attached Storage， 网 络 附 连 
17 Storage Area Storage， 存 储 域 网 〈 或 存 域 网 ) 


元 数据 管理 的 方式 有 多 种 ， 主 要 
方式 和 以 StorageTank 为 代表 的 分 布 式 元 数据 管理 方式 。SAN XH 
昌 后 ， 可 以 通过 高 速 光 纤 通 道 网 络 直接 存 取 SAN 中 的 块 数据 ， 而 不 必 


存储 (也 有 译作 


访问 。 由 于 避免 了 NAS 使 用 以 
通道 高 速 网 络 ，SAN 架构 可 以 
不 需要 光纤 通道 适 配 卡 和 交换 
FE 很 强 ; (3) 可 以 实现 多 个 客户 端的 共享 访问 ， 
到 对 底层 存储 的 共享 。 

成 本 和 易于 部 署 的 优势 。 为 了 共享 访问 存储 ， 

方案 是 在 SAN 之 上 搭建 NAS 架构 , 通过 NAS 
法 是 使 用 专门 的 SAN 集群 管理 系统 ， 也 就 是 


网 络 的 平台 ,主要 解决 的 是 在 文件 元 数据 统一 
分 为 以 SANergy、CXFS、StorNext 等 为 代表 
FASE 
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能 得 


| 勘探 、 核 爆炸 模拟 等 大 规模 科学 计算 需要 越 来 越 高 的 计算 能 


“网 络 附 接 存储 ”) 


文件 系统 的 发 展 脉络 


力 ， 而 当时 的 计算 机 还 是 单 处 理 器 ， 计 算 能 力 有 限 ， 不 能 满足 科学 计算 的 需求 。 因 此 ， 出 现 
了 以 追求 高 计算 能 力 的 多 处 理 器 结构 的 计算 机 。 典 型 的 多 处 理 器 计算 机 采用 大 规模 并 行 处 理 
(Massive parallel Processing, MPP) 体系 结构 ， 科 学 计算 应 用 采用 并 行 编程 模型 来 获得 高 
的 计算 速度 。 因 此 ， 每 个 任务 由 多 个 协同 工作 的 进程 组 成 ， 每 个 进程 可 以 运行 在 不 同 的 节点 
上 。 并 行程 序 对 数据 访问 提出 了 新 的 需求 , 即 运行 于 多 个 计算 节点 上 的 进程 共享 一 个 全 局 文 
件 系统 视图 ， 而 且 需 要 与 高 计算 速度 相 匹 配 的 读 写 性 能 ， 由 此 引发 并 行文 件 系 统 研究 。 


早期 的 并 行文 件 系 统 有 Bridge File System P", Concurrent File System (CFS) PS, È 
们 运行 在 MPP 结构 的 超级 计算 机 上 。 由 于 科学 计算 的 数据 文件 通常 非常 大 ， 并 且 每 次 访问 
数据 的 粒度 很 大 (一般 为 几 KB 到 几 十 KB)， 并 行文 件 系 统 将 文件 条 带 化 ， 分 散 地 存储 在 所 
有 读 写 节点 。 因 此 ， 它 们 与 网 络 文件 系统 、 分 布 式 文件 系统 的 最 大 不 同 在 于 ， 通过 条 带 化 存 
储 ， 一 个 读 写 请 求 可 以 并 行 地 发 给 多 个 读 写 节 点 ， 这 些 读 写 节点 并 行进 行 磁盘 访问 ， 从 而 可 
以 为 应 用 提供 很 高 的 并 行 读 写 带 宽 。 


CFS 等 虽然 将 数据 分 散 到 多 个 存储 节点 上 , 能 够 满足 并 发 访问 的 要 求 , 但 是 文件 系统 向 
应 用 程序 隐藏 数据 划分 信息 。 这样, 文件 系统 不 能 根据 应 用 程序 访问 模式 来 存放 数据 。Vesta 
并 行文 件 系统 "针对 这 个 问题 ， 提 出 cell (单元 ) 概念 ， 引 入 二 维 数据 存储 结构 ，cell 可 以 
看 做 虚拟 读 写 节点 。 


随 着 处 理 器 和 网 络 的 性 能 不 断 提高 和 价格 的 日 益 下 降 ， 使 得 并 行 计算 逐渐 从 MPP 结构 
的 超级 计算 机 向 机 群 结构 的 高 性 能 计算 机 转移 ,机 群 结构 的 高 性 能 计算 机 由 一 组 高 性 能 节点 
(工作 站 或 者 服务 器 ) 构成 ， 进 而 引发 基于 机 群 结构 的 并 行文 件 系统 的 研究 ， 典 型 代表 有 
PVFSBI、Lustreb9 等 ， 它 们 运行 在 当今 很 多 机 群 结构 的 高 性 能 计算 机 上 。 


4.1 MPP 上 的 并 行文 件 系 统 


20 世纪 80 年 代 末 到 90 年 代 末 ， 大 规模 并 行 处 理 巨型 机 CMPP) 是 当时 高 性 能 科学 计 
算 的 主要 硬件 平台 。MPP 由 大 量 计 算 节点 和 读 写 节点 组 成 ， 通 过 专门 的 高 速 互 联网 络 将 这 
些 节点 连接 起 来 ， 提 供 强大 的 计算 能 力 和 通信 能 力 。 计 算 节点 用 来 运行 用 户 任 务 ， 读 写 节点 
运行 文件 系统 的 服务 进程 ， 执 行 对 文件 块 的 读 / 写 请 求 。 

CFSP? 绚 是 第 一 个 将 大 文件 分 散 到 多 个 读 写 节点 以 提高 读 写 性 能 的 商业 化 并 行文 件 系 
统 。 它 是 20 世纪 80 年 代 末 英特尔 (Intel) 为 其 超级 计算 机 研制 的 并 行文 件 系统 ， 运 行 于 
MPP 结构 的 超级 计算 机 Intel iPSC/2"* 上。 


CFS 中 大 文件 采用 条 带 化 方式 存储 ， 一 个 大 文件 fd 
被 划分 为 大 小 为 4KB 的 块 ， 这 些 文件 块 以 轮转 
(round-robin) 的 方式 存储 在 所 有 可 用 读 写 节点 上 ， 
如 图 1 Pra. fu, ARAN MES WA, Ri Bee 
在 第 k 个 读 写 节 点 上 ，k=imod N。 所 有 的 读 写 节点 上 
都 运行 CFS 的 disk〈 盘 读 写 ) 进程 ， 它 的 主要 功能 
是 接收 来 自 计算 节点 的 文件 块 读 写 请 求 ， 执 行 真正 的 
磁盘 数据 访问 。CFS 的 name 进程 只 运行 在 一 个 读 写 
节点 上 ， 它 的 主要 功能 是 管理 目录 树 ， 服 务 所 有 涉及 
目录 的 读 写 请 求 。 运 行 于 计算 节点 上 的 应 用 程序 通过 图 1. 文 件 条 带 化 存储 D 


1 ipSC/2 是 英特尔 研制 的 超级 计算 机 
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WI CFS 实时 读 写 库 来 访问 CFS 文件 。 


并 行文 件 系统 引入 条 融化 存储 方式 ， 将 文件 划分 为 等 长 的 单元 并 循环 放置 到 多 个 磁盘 
上 ,支持 对 磁盘 的 并 行 访问 , 但 是 向 应 用 程序 隐藏 了 数据 分 布 信息 。 这 种 方式 的 一 个 次 端 是 
应 用 程序 开发 者 无 法 根据 应 用 程序 特定 访问 模式 来 划分 数据 进行 存储 , 因此 无 法 获得 更 高 的 
访问 效率 。 


HIE, Vesta 并 行文 件 系统 ”引入 新 的 文件 抽象 概念 ， 应 用 程序 开发 者 可 以 根据 应 用 程 
序数 据 访 问 模式 来 指定 文件 划分 模式 。Vesta 允许 用 户 将 文件 划分 为 多 个 互 不 覆盖 的 块 ， 这 
些 块 可 以 被 并 行 访问 。 文 件 块 划分 可 以 动态 改变 ， 减 少 文件 访问 对 同步 和 一 致 性 需要 。 


Vesta 文件 系统 有 如 下 两 个 创新 : 第 一 ， 它 不 依赖 系统 中 读 写 节点 数 ， 第 二 ， 它 允许 文 
件 采 取 多 种 划分 方式 ， 可 以 根据 应 用 程序 不 同 进程 的 访问 模式 ， 将 数据 划分 成 不 同 的 块 。 


Vesta 不 依赖 系统 中 读 写 节点 数 ， 使 用 了 cell 概念 ， 可 以 把 cell 看 做 数据 容器 ， 或 者 虚 
拟 读 写 节点 。 这些 虚拟 读 写 节点 可 以 映射 到 实际 物理 节点 上 。 当 创建 文件 时 , 给 定 它 使 用 的 
cell 个 数 参数 。 如 果 cell 数目 不 多 于 读 写 节点 数 ， 则 每 个 cell 分 布 在 不 同 的 读 写 节点 上 ; 如 
R cell 数目 多 于 读 写 节点 数 ， 则 将 cell 循环 放置 到 所 有 读 写 节点 上 。 为 了 获得 最 佳 性 能 ， 最 
好 每 个 VO 节点 分 配 相 同 数目 的 cell. 


cell 的 出 现 ， 使 得 Vesta 引入 二 维 数 据 结 构 。 第 一 维 是 cell (图 1 中 的 水 平 维度 )， 指 定 
数据 访问 并 发 度 。 第 二 维 是 cell 内 的 维度 ( 竖 直 维 度 ocell 由 一 些 基本 划分 单元 (Basic Striping 
Unit, BSU) 组 成 。BSU 可 以 是 任意 长 度 ， 并 且 反映 数据 访问 最 小 单元 。cell 数目 和 BSU 大 
小 ， 是 定义 文件 的 两 个 参数 。 文 件 创 建 时 被 指定 ， 以 后 不 能 修改 。 


4.2 Linux 机 群 上 的 并 行文 件 系统 


20 世纪 90 年 代 后 期 ， 并 行 计算 逐渐 从 MPP 结构 的 超级 计算 机 向 由 机 群 结构 的 高 性 能 
计算 机 转移 ， 机 群 成 为 构建 可 扩展 并 行 计 算 机 的 主流 方式 ， 主 要 原因 包括 以 下 几 个 方面 。 


(1) ”处 理 器 速度 随时 间 呈 指数 增长 ， 同 时 价格 日 益 下 降 中 。 因 此 ， 在 20 世纪 90 年 
代 后 ， 处 理 器 的 速度 已 经 非常 快 ， 利 用 商品 化 的 工作 站 束 可 以 获得 很 高 的 计算 
速度 。 

(2) ”局 域 网 上 高 速 网 络 技术 和 通信 协议 不 断 完善 ， 节 点 间 通 信和 能 获得 更 高 的 带宽 和 

更 小 的 延迟 。 互 连 网 络 是 并 行 计算 机 的 关键 部 分 。 早 期 的 并 行 计算 机 使 用 专门 
的 互连网 络 ， 典 型 代表 有 SGI 的 NumaLink、IBM 的 SP Switch. SP Switch2、 
bora (Cray) 的 Cray Interconnect 等 。 随 着 高 速 互连网 络 技术 的 不 断 发 展 ， 新 
的 互 连 技术 不 断 出 现 ， 如 Myrinet、QsNet、 千 兆 以 太 网 ，Infiniband 等 。 

(3) ”由 于 机 群 系统 采用 包括 服务 器 、 高 速 互 连 网 络 、 磁 盘 阵 列 等 商品 化 部 件 组 成 ， 

因此 机 群 系统 比 传统 的 并 行 计算 机 更 易于 构造 ， 而 且 性 价 比 也 更 高 。 

(4) 机群 上 的 开发 工具 日 趋 成 熟 ， 而 传统 的 并 行 计算 机 上 缺乏 一 个 统一 的 标准 ; 

(5) ”机 群 还 具有 良好 的 扩展 性 ， 通 过 增加 节点 内 存 或 者 更 换 CPU 便 可 获得 更 高 性 


au 
HGo 


机 群 是 由 一 组 独立 的 计算 机 (节点 ) 组 成 ， 贡 点 间 通 过 高 性 能 的 互联 网 络 连接 。 节 点 都 
有 自己 的 本 地 磁盘 和 完整 的 操作 系统 。 互 连 网 络 通常 使 用 商品 化 网 络 ， 如 以 太 网 、Myrinet、 
Infiniband 等 。 节 点 间 以 松 耦 合 的 方式 相互 连接 。 节 点 除了 可 以 作为 一 个 单一 的 计算 资源 供 
用 户 使 用 外 ， 还 可 以 协同 地 工作 ， 像 一 个 单一 的 、 集 中 的 计算 资源 那样 完成 并 行 计 算 任务 。 


E 


文件 系统 的 发 展 脉络 


20 世纪 90 年 代 中 期 开源 的 Linux 操作 系统 逐渐 成 熟 并 得 到 广泛 的 使 用 ， 很 多 有 高 性 能 


计算 需求 的 实验 室 通 常 采 用 计算 机 机 釉 


而 上 述 并 行文 件 系统 则 需要 运行 于 特定 厂商 生产 的 


表 包 括 PVFS 和 Lustre。 它 们 都 


E 


TE o 


越 来 越 多 的 Linux 机 群 上 。 于 是 ， 人 们 开始 


方式 来 构建 高 性 能 计算 环境 ,Linux 机 群 越 来 越 普遍 。 


MPP 结构 的 超级 计算 机 上 ， 无 法 运行 于 


发 运行 于 Linux 机 和 群 的 并 行文 件 系统 ， 上 典型 代 


是 开源 软件 ， 因 而 被 广泛 地 使 用 ， 这 也 促进 了 它们 自身 的 发 


PVFS 和 Lustre 吸收 了 MPP 并 行文 件 系统 的 很 多 思想 ， 包 括 : (1) 采用 一 个 专门 的 服 


务 器 〈 元 数据 服务 器 ) 来 维护 和 


管理 整个 文件 系统 的 名 字 空 间 ， 为 所 有 计算 节点 上 的 应 用 和 


用 户 提供 一 个 全 局 的 名 字 空 间 视 图 ; (2) 将 文件 数据 条 带 化 并 分 散 存 储 在 所 有 的 读 写 节点 ( 存 


储 服务 器 ) 上 ， 并 且 提 供 并 行 读 写 接口 中。 这 样 ， 


一 个 读 写 请 求 可 以 并 行 分 发 到 多 个 读 写 


节点 上 ， 从 而 获得 很 高 的 并 行 读 写 带宽 ;(3) 它们 还 利用 高 速 互连网 络 (Myrinet、InfiniBand 
A) 的 底层 通信 协议 来 传输 文件 数据 ， 从 而 能 够 更 好 地 利用 高 速 互连网 络 的 带宽 提供 更 高 的 


读 写 性 能 。 


除 此 之 外 ，PVFS 和 Lustre 还 提供 了 一 些 MPP 并 行文 件 系统 所 没有 的 功能 ， 包 括 : (1) 


支持 传统 POSIX 标准 的 文件 访问 接口 。 由 于 它们 的 客户 端 除了 并 行 读 写 库 外 , 还 实现 了 VFS 


层 接口 ， 从 而 应 用 程序 和 用 户 可 以 直接 使 用 操作 系统 提供 的 系统 调用 、 库 函数 和 系统 命令 来 


访问 并 行文 件 系统 。 这 样 使 得 它们 所 能 够 支持 的 应 月 


日 范围 不 再 局 限于 并 行程 序 , 还 包括 串 行 


程序 和 使 用 本 地 文件 访问 接口 的 程序 。(2) 读 写 节点 可 以 与 计算 节点 重合 。PVFS 和 Lustre 
中 , 文件 系统 的 客户 端 与 服务 器 端的 划分 是 逻辑 上 的 ,物理 上 这 些 组 件 可 以 重 堆 放置 在 同一 


个 物理 节点 上 。 这 样 它 们 能 够 支持 更 灵活 的 机 群 架构 。 


4.3 负载 特征 和 性 能 评价 


对 于 高 性 能 计算 应 用 , 一 个 并 行 作 业 是 由 
并 行文 件 系统 的 负载 主要 有 两 类 : 


多 个 分 布 于 不 同 计算 节点 的 任务 构成 的 , 因此 ， 
OD 多 个 任务 对 同一 文件 的 不 同位 置 的 并 行 访问 ， 即 并 行 


文件 访问 接口 ”5 ;， (2) 一 个 读 写 请 求 由 多 个 存储 服务 器 和 多 个 磁盘 并 行 工作 来 满足 。 这 两 


类 并 行 IO 负载 都 强调 高 带宽 ， 


5 ”分 布 式 文件 系统 


因此 ， 并 行文 件 系 统 的 性 能 评价 标准 以 并 行 读 写 带宽 为 主 。 


20 世纪 90 年 代 后 期 ， 随 着 互联 网 的 发 展 ， 无 论 是 用 户 数量 还 是 网 页 数量 都 随时 间 呈 现 


站 数 增长 。 由 于 网 页 数量 太 大 ， 人 们 需要 一 利 


工具 来 帮助 自己 从 互联 网 上 快速 找到 所 需要 的 


网 页 ， 于 是 出 现 了 海量 文本 检索 工具 ， 即 搜索 引擎 。 搜 索引 擎 需要 把 整个 互联 网 上 的 网 页 都 


抓 取 回来 ， 对 它们 进行 分 析 处 到 


E 《如 去 重 、 分 词 、i 


十 算 排序 (PageRank) 等 )， 并 构建 倒 排 


索引 ， 以 便 支 持 用 户 快速 检索 到 自己 想 要 的 网 页 。 建 索引 是 一 个 海量 数据 处 理 的 应 用 ， 它 每 


次 都 需要 对 整个 互联 网 的 所 有 网 页 进行 处 


及 时 反映 互联 网 上 新 增 的 网 页 ， 


音 ， 无 论 是 数据 量 还 是 计算 量 都 非常 大 。 而 且 , 为 


抓 取 网 页 、 分 析 处 理 、 建 立 索 引 这 个 过 程 是 反复 进行 。 不 过 ， 


分 析 处 理 和 建 索引 是 以 读 为 主 ， 


而 且 容易 并 行 。 在 查询 方面 ， 当 时 的 搜索 引擎 每 秒 服务 数 干 


个 请 求 ， 而 每 个 请 求 需要 数 百 亿 的 处 理 器 周期 ， 需 


要 读 取 数 百 兆 字 节 的 数据 中 。 搜 索引 擎 


需要 系统 具有 高 各 叶 率 、 低 成 本 ， 而 不 是 高 峰值 处 理性 能 。 于 是 产生 了 以 谷歌 Google) 的 
PC-cluster P’, Google File System (GFS) °!, MapReduce 中 为 代表 的 新 型 数据 处 理 架 构 。 


实际 上 在 GFS 出 现 之 前 ， 


高 性 能 计算 (HPC) 


领域 提出 了 集群 上 的 并 行文 件 系统 的 解 


决 方案 。 这 些 方案 通过 将 数据 分 片 并 存储 在 不 同 的 节点 ， 由 并 行 访问 来 提高 读 写 性 能 。 同 时 
使 用 高 可 靠 的 服务 器 级 存储 设备 、 磁 盘 见 余 阵 列 以 
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及 检查 点 等 技术 来 保证 数据 存储 的 可 用 
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性 。 并 行文 件 系统 方案 能 够 很 好 地 满足 高 性 能 计算 领域 的 高 性 能 读 写 需求 , 但 是 对 于 互联 网 


EF: 首先 ， 为 了 满足 峰值 读 写 带宽 的 


需求 和 数据 可 靠 性 的 需求 ， 高 性 能 计算 领域 中 使 用 价格 昂贵 的 高 端 磁盘 阵列 。 在 当时 ， 单 个 


高 性 能 计算 应 用 处 理 的 数据 量 远 远 


氏 于 搜索 引擎 处 


里 的 数据 量 。 对 于 互联 网 应 用 的 海量 数据 


处 理 需 求 ， 这 种 解决 方案 成 本 太 高 ， 且 性 价 比 低 。 其 次 ， 将 数据 可 用 性 保障 完全 交 由 硬件 也 


数据 也 处 于 不 可 用 的 状态 。 


盘 故 障 ，RAID 恢复 时 不 仅 对 性 
Jj. TEE AS AE RE We AY RT BEY 
技术 能 够 将 数据 恢复 到 上 一 个 一 致 状态 ， 


第 


EE 


在 线 服 务 的 互联 网 应 用 显然 是 不 适合 的 ， 而 - 


2uyk 
月 JS 


E 增 大 ， 有 可 


操作 ， 丢 失 的 数据 无 法 进行 恢复 。 


5.1 GFS 


是 不 现实 的 ， 即 使 能 够 保证 存储 设备 是 可 靠 的 ,但 如 果 网 络 或 计算 机 本 身 发 生 故 障 ， 相 应 的 
三 ， 存 储 设备 也 有 不 可 用 的 时 候 ，RAID 技术 虽然 能 够 容忍 磁 
成 很 大 的 影响 ， 同 时 重建 过 程 会 增强 其 余人 磁盘 的 读 写 压 
能 会 造成 数据 的 永久 丢失 。 虽 然 使 用 检查 点 


但 需要 对 系统 进行 停机 操作 ， 这 对 于 需要 365 X 24 
日 大 部 分 互联 网 应 用 无 法 进行 “ 重 做 (Redo)” 


GES 是 在 搜索 引擎 需要 对 海量 数据 进行 存储 和 处 理 这 样 的 需求 下 产生 的 。 为 了 解决 海 


量 数据 处 理 问 题 , 谷歌 提出 了 基于 


kE 价 计算 机 集群 的 分 布 式 数据 存储 与 处 理 架 构 , 使 用 廉价 


的 PC 集群 取代 昂贵 的 服务 器 集群 来 降低 成 本 。 由 于 互联 网 应 用 中 的 请 求 大 部 分 都 只 需要 简 


成 本 低 ， 可 以 通过 数量 上 的 优势 更 好 地 并 行 


所 以 在 硬件 上 不 可 能 保证 数据 的 可 用 


单 的 计算 ， 但 请 求 数据 量 非常 大 ， 


因 


此 使 用 


高 端 服务 器 是 一 种 资源 浪费 ， 而 PC 集群 ， 由 于 


性 。 同 时 软件 人 


处 理 海量 的 请 求 。 因 此 使 用 PC 集群 是 性 价 比 最 
优 的 一 种 解决 方案 。 但 由 于 PC 机 发 生 故 障 的 概率 要 和 远 高 于 服务 器 ， 且 集群 规模 十 分 庞大 ， 


天 陷 、 人 为 操作 错误 或 者 是 网 络 电力 的 失 


效 都 有 可 能 造成 结 点 失效 , 而 且 失 效 是 经 常 发生 的 , 所 以 需要 在 软件 层 中 实现 数据 的 可 用 性 


保证 。 


GFS 底层 平台 是 大 规模 〈 数 干 台 到 数 万 台 )〉 的、 上 


RR 价 的 、 可 靠 性 较 低 的 PC 集群 ， 存 储 


设备 是 集群 中 每 个 节点 上 的 多 块 IDE “磁盘 。 搜 索引 擎 的 负载 具有 特殊 性 ， 它 操作 的 文件 大 


小 一 般 都 是 GB 级 ， 而 且 对 于 这 些 文 从 
KE, GFS 的 设计 目标 是 为 GB 以 上 
根据 应 用 的 需要 ，GFS 重新 设计 了 文件 访问 的 APTE 
的 POSIX 接口 及 语义 。GFS 采用 集 


(Master) 管 


主 节点 不 仅 维护 整个 文件 系统 的 目录 和 文 伯 
息 ， 以 及 每 个 Chunkserver 的 状态 (是否 激活 ) 信息 。 
所 有 这 些 信息 。 为 保障 数据 的 可 靠 性 和 可 
是 保存 3 份 )。 每 个 写 操作 都 同时 写 多 个 复 本 ， 只 


"UTE 
AE] 


HES SCPE ARS TCR, BC 


HIC 
理 、 分 布 式 存储 这 种 架构 。 由 一 个 单一 的 主 节 点 
据 分 布 存 储 在 集群 中 大 量 的 节点 上 ， 这 些 节 点 称 
为 Chunkserver。 每 个 文件 划分 为 64MB 粒度 的 大 块 〈 称 为 Chunk)， 存 储 在 不 同 的 节点 上 。 
F， 而 且 还 维护 每 个 文件 的 每 个 块 的 存储 位 置信 


的 操作 大 部 分 是 只 读 或 追加 操作 ， 没 有 随机 写 操作 ， 


提供 高 的 读 写 访问 带宽 ， 而 不 是 低 访问 延迟 。 


及 语义 ， 而 没有 文 持 传统 文件 系统 


JE, GFS 


出 于 性 能 考虑 ， 主 节点 在 内 存 中 维护 
中 每 个 数据 块 都 保存 多 份 复 本 〈 缺 省 


采 订 


FE 多 份 复 本 的 弱 一 致 性 。 为 避免 主 贡 点 


成 为 单一 故障 点 ， 每 个 GES 都 有 2 个 本 地 的 备份 主 节 点 和 1 个 异地 的 备份 主 节点 。 


在 谷歌 公司 使 用 上 述 染 构 取 


2H 


PRINZ Je , 其 它 互联 网 公司 由 于 自己 数据 量 的 增长 也 面临 


海量 数据 处 理 的 问题 ,很 多 也 采 月 


与 谷歌 类 似 的 技术 来 解决 数据 规模 的 问题 。 比 如 ， 雅虎 大 


力 支 持 开发 并 采用 了 Hadoop”, tt GFS 和 MapReduce 的 一 种 开源 实现 。 而且 Hadoop 还 


被 Facebook 等 很 多 企业 所 采用 。 微软 开发 了 它 的 数据 


心 文件 系统 TidyFs iz 3412 


据 处 理 系 统 Dryad ^. TidyFS 和 Dryad 在 本 质 上 分 别 与 GFS 和 MapReduce 相似 。 


19 Integrated Device Electronics, 


? Application Programming Interfaces， 应 用 


已 


FA 


DE 


KJ) d 


程序 接 


文件 系统 的 发 展 脉络 


5.2 与 应 用 融合 的 专用 文件 系统 


正如 前 面 所 述 , GFS 的 设计 目标 是 为 GB 以 上 的 大 文件 提供 高 的 读 写 访问 带宽 。 而 在 它 
之 后 出 现 的 一 些 新 应 用 却 需 要 对 儿 KB 到 几 MB 的 小 文件 提供 低 延 迟 、 高 吞吐 率 的 访问 。 这 
些 应 用 包括 在 线 购物 网 站 的 大 量 商 品 图 片 的 存储 、 社 交 网 站 的 大 量 照 片 的 存储 等 。 这 些 应 用 
不 仅 需要 高 性 能 的 图 片 访问 ， 而 且 图 片 数量 也 非常 庞大 ， 远 远 超 过 GFS 的 设计 目标 。 不 过 ， 
这 些 应 用 对 图 片 的 访问 方式 却 比较 简单 ， 只 需要 根据 一 个 唯一 标识 符 取 出 图 片 或 存 入 图 片 ， 
而 不 需要 文件 系统 提供 “在 任意 位 置 读 写 任 意 长 度 的 数据 ”这 样 的 操作 。 为 满足 这 些 特定 应 
用 的 特定 需求 ，Facebook 和 淘宝 公司 都 开发 了 自己 的 、 用 于 图 片 存储 的 专用 文件 系统 ， 如 
Haystack ^t TFS“”"。 这 些 文件 系统 与 专门 的 应 用 有 很 高 的 耦合 度 ， 定 制 性 强 ， 文 件 系统 的 
很 多 操作 接口 都 不 文 持 。 它 们 虽然 在 特定 的 访问 模式 下 的 性 能 非常 高 ， 但 适应 性 差 。 


5.3 负载 特征 和 性 能 评价 


数据 中 心 的 负载 是 多 种 服务 ,每 个 服务 为 互联 网 上 数 以 亿 计 的 用 户 提供 在 线 服 务 ， 同 时 
为 改善 服务 质量 ， 需 要 对 海量 用 户 数据 进行 离线 分 析 和 挖掘 。 在 线 服务 的 同时 在 线 用 户 数量 
在 数 百 万 到 数 千 万 量 级 ,要求 每 个 读 写 请 求 的 响应 时 间 要 尽 可 能 少 ,而 且 并 发 访问 的 吞吐 率 
要 尽 可 能 高 。 离 线 数据 处 理 采 用 MapReduce 进行 大 规模 的 并 行 计 算 ， 各 个 节点 上 运行 的 任 
务 分 别 访问 各 自 的 数据 ,要 求 并 发 访问 的 聚合 读 写 人 带宽 要 尽 可 能 高 。 与 网 络 文件 系统 不 同 的 
是 ， 离 线 数据 处 理 一 个 作业 访问 的 数据 量 和 并 发 度 远 比 网 络 文件 系统 高 ， 单 个 作业 扫描 的 数 
量 通常 是 数 TB， 甚 至 数 PB， 并 发 度 是 数 干 甚至 数 万 个 节点 。 因 此 ， 分 布 式 文件 系统 的 性 
评价 标准 包括 读 写 请 求 的 响应 时 间 、 并 发 访问 的 吞吐 率 和 并 发 访问 的 聚合 读 写 带 宽 。 


6 展望 :数据 中 心 文件 系统 一 一 高 通 量 文件 系统 


互联 网 应 用 的 蓬勃 发 展 , 极 大 地 方便 了 人 们 的 生活 和 工作 。 它们 不 仅 改变 着 人 们 的 生活 
习惯 和 观念 ， 而 且 极 大 地 推动 着 计算 机 技术 本 身 的 发 展 。 随 着 云 计算 、 虚 拟 化 技术 的 发 展 ， 
人 们 将 越 来 越 依 赖 于 大 型 数据 中 心 来 获得 各 种 服务 、 信 息 和 资源 , 大 量 的 计算 和 服务 资源 汇 
集 到 大 型 数据 中 心中 。 数 据 中心 采 用 高 通 量 计算 机 中 和 高 通 量 文件 系统 。 高 通 量 文件 系统 
将 数据 中 心中 大 量 的 、 低 成 本 的 存储 资源 有 效 地 组 织 起 来 , 服务 于 上 层 多 种 应 用 的 数据 存储 
需求 和 数据 访问 需求 。 近 年 来 , 数据 中 心 的 数据 存储 需求 逐渐 成 为 数据 存储 技术 和 文件 系统 
发 展 的 主要 驱动 力 ， 高 通 量 文件 系统 将 成 为 一 种 重要 的 文件 系统 。 


6.1 数据 存储 的 需求 特征 


随 着 互联 网 服务 数量 和 数据 量 的 激增 ， 数 据 中 心 的 数量 也 在 快速 增长 。 据 2008 年 的 报 
道 ， 谷 歌 已 经 有 36 个 数据 中 心 ”“”“， 未 来 将 发 展 成 数 百 个 数据 中 心 "“”"。 据 了 解 ， 我 国 的 大 型 
互联 网 公司 也 在 建 自己 的 数据 中 心 。 数 据 中 心 ， 特 别 是 以 谷歌 、 雅 虎 、Facebook、 亚 马 撑 
(Amazon)、 百 度 、 腾 讯 、 淘 宝 等 大 型 互联 网 公司 为 代表 的 大 型 数据 中 心 ， 在 数据 存储 和 数 
据 访 问 方面 有 着 与 先前 的 应 用 非常 不 同 需 求 特征 。 


第 一 ， 数 据 量 非常 庞大 ， 而 且 增长 速度 很 快 。 目 前 ， 一 些 大 型 互联 网 公司 的 数据 规模 已 
突破 10PB 量 级 ， 预 计 未 来 5-10 年 将 突破 EB 量 级 〈 即 108)。 例 如 ，Facebook 的 照片 总 量 
超过 20PB， 平 均 每 天 上 传 的 数据 量 在 8~9TB*!, Facebook 的 数据 仓库 总 数据 量 超过 15PB， 
每 天 新 增 60TB 的 数据 (压缩 后 10TB ) 5 


第 二 ， 访 问 高 度 并 发 。 互 联网 信息 服务 通常 都 有 庞大 的 用 户 群 ,注册 用 户 有 数 亿 ， 在 线 
用 户 有 数 干 万 。 在 线 用 户 交 互 式 地 访问 互联 网 提供 的 服务 ,要 求 任 何 时 刻 都 能 访问 到 他 们 的 


j 
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数据 。 例 如 ，2010 年 淘宝 网 注册 用 户 达 到 3.7 亿 ， 最 多 的 时 候 每 天 6000 万 人 访问 淘宝 网 ， 


平均 每 分 钟 出 售 4.8 万 件 商品 541。Facebook 目前 有 7.5 亿 注册 用 户 55， 每 月 的 页 面 点 击 率 
(page view) 是 2600 亿 531， 换 算 下 来 ， 平 均 每 分 钟 的 页 面 点 击 率 超 过 600 万 。Facebook 的 
服务 器 每 秒 要 服务 100 万 个 图 片 访问 请 求 *1。eBay 每 天 的 页 面 点 击 率 超 过 20 (47K. 大量 


FAP 
HW. 5 


作业 提交 运行 中， 这 也 是 必须 应 对 的 重要 问题 。 


B=, 文件 数量 巨大 ， 大 文件 和 小 文件 3 


发 访问 造成 大 量 的 随机 读 写 , 对 存储 系统 的 访问 延迟 和 数据 高 可 用 性 带 来 很 大 的 挑 
， 对 于 离线 进行 的 海量 数据 分 析 ， 一 个 Hadoop 集群 上 同时 有 数 万 个 MapReduce 


存 。 目 前 一 些 互 联网 应 


的 图 片 数 量 已 超过 数 


百 亿 ， 预 计 未 来 2-5 年 将 增长 到 数 万 亿 。 例 如 ，Facebook 目前 的 图 片 数 量 超过 2600 亿 ， 每 
BI。 除了 图 片 外 ， 互 联网 上 还 有 大 量 的 音 视 频 文件 ， 数 


周 新 增 图 片 10 亿 张 ， 大 约 为 60T 


第 四 , 数据 访问 语义 和 访问 接 
用 的 ， 而 不 是 面向 终 站 


量 也 在 迅速 增长 。 例 如 ， 搜 狐 视 频 总 量 帮 


口 不 同 于 传统 的 文 伯 
用 户 的 。 终 端 用 户 通过 访问 互联 网 上 的 各 种 服务 来 获得 信息 或 数据 ， 


E 去 年 就 突破 了 10 zl. 


真正 与 数据 中 心 文件 系统 直 
务 (web service) 等 。 因 此 ， 数 据 


接 交 互 的 是 各 利 
中 心 的 文件 系统 不 需要 传统 文件 系统 ， 
例如 link (BER. rename ( 重 命名 ) 等 ， 也 不 需要 复杂 的 E 
局 唯一 的 关键 字 (key) 来 访问 数据 。 数 据 可 以 是 无 结构 的 字符 流 ， 也 可 能 是 半 结 构 化 的 键 


系统 。 数 据 ， 


服务 软件 ， 如 搜索 引擎 、 云 存储 服务 、 万 维 网 服 


心 的 文件 系统 是 面向 应 


那些 复杂 的 操作 ， 


录 结 构 。 它 们 需要 按 某 个 全 


值 对 ， 或 者 是 多 维 表 。 因 此 ， 数 据 ， 


第 五 ， 数 据 共享 与 数据 安全 的 


。 男 外 ， 数 据 中 心中 一 个 目录 下 


心 所 需要 的 是 不 同 于 传统 文件 系统 的 访问 语义 和 访问 接 
的 文件 数量 非常 庞大 ， 是 传统 文件 系统 无 法 文 持 的 。 


果 障 越 来 越 重要 ， 而 | 


晶 与 传统 文件 系统 不 同 。 数据 中 心 文 


撑 着 多 种 应 


] ， 它 们 为 用 户 提供 各 种 不 同 的 服务 。 数 据 ' 
享 的 。 例如， 谷歌 的 gmail, gtalk, gdoc 等 服务 都 共享 


心中 有 些 数据 是 需要 被 多 种 应 用 共 


Y. qx ET 
1H oe HF 


] 户 之 间 还 可 以 共享 


文档 、 照 片 等 。 但 在 数据 共享 需求 的 同时 ， 数 据 还 有 安全 性 需求 。 数 据 是 不 应 被 未 授权 用 户 
或 应 用 访问 到 的 。 数 据 中 心 的 数据 共享 和 数据 安全 的 需求 不 同 于 传统 文件 系统 的 访问 权限 控 


制 。 比 如 ， 


件 为 止 。 而 这 种 会 话 方式 对 于 数据 中 心 的 数据 访问 3 


传统 的 文人 


F 系 统 采用 基于 会 话 的 访问 控制 ， 


一 个 全 


会 话 从 打开 文件 开始 ， 到 关闭 文 


> 
ia 


6.2 可 能 的 技术 创新 


数据 中 心 的 文人 


系统 要 为 数据 ， 


心 运行 的 各 种 互联 网 


任务 提供 数据 存储 支持 。 由 于 


不 考虑 的 问题 。 


吐 率 ， 而 不 是 峰值 读 写 带宽 或 单 
称 为 高 通 量 文件 系统 的 原因 。 


数据 量 非常 庞大 ,有效 地 控 M 


在 线 服务 , 为 大 量 的 后 台数 据 分 析 
加 数据 存储 的 成 本 是 数据 中 心 不 得 


而 在 性 能 方面 ，1 


于 数据 中 心服 务 于 大 量 高 度 3 


发 的 请 求 ， 它 们 更 强调 高 知 


因此 ， 成 本 和 性 能 是 数据 中 


个 读 写 请 求 的 延迟 “"。 这 就 是 我 们 将 数据 中 心 的 文件 系统 


心 文件 系统 需要 考虑 的 首要 问题 。 


数据 中 心 并 不 单纯 追求 高 性 能 ， 而 是 追求 能 否 以 更 低 的 成 本 获得 更 高 的 性 能 ， 即 高 性 价 


fuer 
针对 数据 | 


PC 集群 (与 之 对 比 


心 的 数据 规模 、 成 本 、 性 能 等 问题 ， 
一 种 解决 方案 中 ， 通 常 被 称 为 Google 架构 。 其 基本 思想 
的 是 昂贵 的 服务 器 集群 )、 普 通 的 IDE 磁盘 〈 与 之 对 比 的 是 昂贵 的 高 端 


谷歌 


公司 在 20 世纪 末 本 世纪 初 提出 了 


是 : 第 一 ， 便 件 设 施 采用 低 成 本 的 


磁盘 阵列 ) 和 普通 的 以 太 网 〈 与 之 对 比 的 是 昂贵 的 高 性 能 通信 网 络 如 Myrinet、Quadrics、 


InfiniBand 等 )。 第 二 ， 通 过 软 伯 
按照 这 一 架构 ， 谷 歌 


ARS 
等 问题 。 


F 来 解决 系统 规模 的 可 扩展 性 、 可 靠 性 、 
发 了 它 的 文件 系统 GES AE WF 
MapReduce", GFS 也 许可 以 被 认为 是 第 一 个 数据 中 心 文件 系统 。GFS 采用 集中 式 管 理 结 


高 吞吐 率 和 可 用 性 
行 数据 处 理 系统 


构 , 


需求 


个 应 


文件 系统 的 发 展 脉络 


实践 证 明了 这 种 结构 有 很 好 的 扩展 性 ， 可 以 支撑 谷歌 由 上 万 个 结 点 构成 的 集群 。 


但 是 ， 随 着 数据 中 心 过 去 10 年 


的 发 展 ，GFS 在 一 些 方面 已 经 无 法 满足 当前 数据 中 心 的 


了 ， 它 在 设计 上 目前 面临 的 几 个 主要 挑战 是 : 


第 一 ， 集 中 式 元 数据 管理 成 为 GES RS. GES 在 最 初 设计 时 主要 是 针对 搜索 引擎 这 


寺 的 ， 搜 索引 擎 需要 将 整个 万 台 


EJ Cwebo 的 网 页 都 抓 取 回 来 以 构建 索引 。 虽 然 网 页 数 


据 通 常 是 大 量 的 小 文件 ， 但 是 应 用 层 将 这 些小 文件 聚合 成 了 GB 级 以 上 的 大 文件 。 因 此 ， 


GFS 
到 现 


整个 
( 称 


大 文 


EA 
需要 


访问 


设计 日 标 是 支持 百 万 量 级 (其 


STIER) 的 GB 级 的 大 文件 下。 但 是 数据 中 心 发 展 


在 ， 其 文件 数量 已 经 远 远 不 止 千 万 量 级 ， 而 是 已 经 到 了 百 亿 量 级 ，2-3 年 后 将 达到 万 亿 


量 级 。 对 于 文件 数量 如 此 庞大 的 文件 系统 ，GFS 那 种 依赖 单个 元 数据 服务 器 的 内 存 来 管理 


文件 系统 的 所 有 元 数据 信息 的 集中 式 处 理 已 经 显得 不 合 时 宜 了 , 谷歌 新 一 代 的 文件 系统 


H Colossus) 已 采用 分 布 式 元 数据 管理 9 51。 


第 二 ， 小 文件 的 高 度 并 发 访问 性 能 低 。 目 前 数据 中 心 提供 的 很 多 服务 ,不 仪 需要 大 量 的 


件 访 问 , 而 且 更 有 大 量 的 小 文件 并 发 访问 。 大量 的 交互 式 用 户 产 生 大 量 的 、 高 度 并 发 的 
小 文件 访问 ， 如 网 上 购物 的 商品 图 片 、GIS 系统 的 卫星 图 片 、 邮 件 、 文 档 等 。 这 类 应 用 不 仅 
文件 系统 能 够 提供 小 文件 访问 的 高 吞吐 率 以 满足 高 并 发 的 需求 , 而 且 还 需要 每 个 小 文件 


的 延迟 很 低 以 满足 交互 式 用 户 的 需求 。 而 由 于 这 些 文件 大 多 不 超过 1MB， 不 仅 GFS 而 


且 传 统 文件 系统 在 访问 一 个 文件 时 都 需要 多 次 磁盘 读 写 和 多 次 的 网 络 来 回 , 因此 难于 满足 低 


延迟 


性 和 
中 心 
降低 
成 本 
方式 


的 需求 。 


第 三 ， 存 储 成 本 仍然 很 高 。GFS 的 存储 成 本 主要 来 自 它 的 容错 机 制 。 由 于 GFS 是 运行 
于 低 成 本 的 、 可 靠 性 较 低 的 服务 器 、 网 络 、 磁 盘 上 ， 所 以 通过 采用 多 复 本 来 保障 数据 的 可 靠 


可 用 性 。 每 个 数据 在 GFS 中 一 般 保存 3 个 复 本 。 这 导致 存储 成 本 变 成 3 倍 。 如 果 数 据 
需要 存储 10PB 的 数据 ， 就 需要 装备 30PB 的 存储 设备 。 目 前 业界 也 采用 了 各 种 方法 来 


存储 的 成 本 。 比 如 ， 应 用 层 采 用 将 数据 压缩 后 再 存储 5 。 另 外 ， 业 界 也 在 探讨 更 节省 


的 元 余 机 制 。 比 如 ， 采 用 纠 删 码 (erasure code) "或 者 采用 多 复 本 与 纠 删 码 相 结合 的 


[50] 


第 四 ， 应 用 与 应 用 之 间 、 用 户 与 


源 和 


存储 资源 汇集 到 数据 中 心 之 后 ， 


用 户 之 间 数 据 的 隔离 与 安全 保障 仍 有 很 多 问题 。 计 算 资 
众多 的 应 用 (服务 ) 和 用 户 将 共享 数据 中 心 的 计算 资源 


和 存储 资源 。 但 是 ， 数 据 是 具有 归属 性 的 ， 有 些 数据 只 能 由 特定 用 户 访 问 ， 而 有 些 数据 则 是 


公开 
GFS 
i 


原因 
其 服 


的 ， 任 何人 都 可 以 访问 。 目 前 ， 


数据 的 访问 控制 大 多 由 各 个 应 用 《服务 ) 自己 负责 ， 


不 负责 数据 的 隔离 性 和 安全 性 。 但 这 种 方式 仍然 有 漏洞 ， 比 如 黑客 可 以 绕 过 应 用 来 访 


] 户 的 数据 。 因 此 ， 数 据 中 心 文 伯 
第 五 , 多 个 数据 中 心 构 成 全 局 数据 视图 帝 来 的 问题 有 待 解决 。 出 于 容 灾 和 数据 量 庞 大 等 


F 系 统 需要 在 数据 隔离 性 和 安全 性 方面 提供 必要 的 支持 。 


， 数据 中 心 的 数据 需要 存储 在 地 域 不 同 的 多 个 数据 中 心中 。 互 联网 服务 的 一 个 特点 就 是 


务 的 用 户 群 体 是 遍布 世界 各 地 的 ， 而 且 用 户 还 可 能 旅行 到 不 同 地 方 ， 因此， 就 近 访问 是 


很 重要 。GFS 设计 之 初 仅 针 对 一 个 数据 中 心 内 部 的 数据 存储 。 在 多 数据 中 心 下 ， 有 很 多 以 


前 没 


At 
FF o 


件 访 


[um 心 


有 考虑 的 问题 ， 包 括 数 据 如 何 放置 、 如 何 移动 、 如 何 保证 数据 一 致 性 等 ， 都 需要 认真 对 


综 上 所 述 ，GFS 虽然 是 第 一 个 数据 中 心 文件 系统 ， 但 是 它 在 元 数据 管理 、 高 并 发 小 文 


问 、 存 储 成 本 、 数 据 安全 性 和 多 


数据 中 心 支持 等 方面 都 存在 局 限 性 ， 不 能 满足 当前 数据 


的 需求 。 而 高 通 量 文件 系统 需要 通过 在 上 述 各 个 方面 进行 技术 创新 来 克服 GES 的 这 些 


局 上限， 更 好 地 满足 数据 中 心 应 用 的 数据 存储 和 数据 访问 需求 。 


14 


第 10 4836 1 期 


7 


中 


国 科 学 院 计 算 技术 研究 所 的 
统 方面 的 工作 可 以 追溯 到 1992 F, 当时 智 
HE. HEI 1000 在 技术 路 线 


英特尔 的 i860 Ab FBS 


信息 技术 快报 
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我 们 过 去 的 工作 简介 


国家 智能 计算 机 
能 中 心 全 面 
j 当 时 并 行 计算 机 的 主流 架构 


L. S37. 


EÀ 


究 开 发 中 心 ( 简 
展开 了 曙光 1000 超级 计算 机 的 研制 工 
MPP Ji 
要 系统 软件 ，1992 年 到 


并 行文 件 系 统 是 MPP 架构 并 行 计 算 机 的 重 


称 


w] 
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智能 中 心 ) 在 文件 系 


构 ， 计 算 节 点 基于 


心 面 向 高 性 


H HVFS. 
开 且 提出 


1994 年 ， 智 能 中 心 研 制 开 发 了 曙光 1000 的 并 行文 件 系 统 PESP?, 之后， 智能 
能 计算 应 用 的 数据 读 写 需求 ， 先 后 为 曙光 系列 高 性 能 计算 机 《从 曙光 2000 到 曙光 6000) fi 
制 了 多 个 版 本 的 机 群 文件 系统 , 包括 COSMOS、DCFS1、DCFS2、 LionFS、DCFS3 逢 
在 研制 这 些 文件 系统 的 过 程 中 , 对 于 机 群 文件 系统 的 一 系列 关键 问题 展开 了 研究 ， 
了 相应 的 解决 方案 。 
7.1 技术 贡献 
COSMOS 9 是 智能 中 心 在 1996 年 到 2000 年 期 间 为 曙光 2000 和 曙光 3000 超级 服务 器 
研制 的 机 群 文件 系统 。COSMOS 运行 于 基于 IBM Power3 的 AIX 机 群 上 。 它 借鉴 了 当时 加 


J^ 


从 2001 年 起 


智能 


是 数据 存储 的 服务 器 ， 又 是 文件 访问 的 客户 端 。 而 ] 
路 上 分 离 出 来 。 另 外 ，COSMOS 还 对 客户 端 协作 式 缓存 技术 进行 了 探索 。 


大 学 伯克利 分 校 NOW 项 目 中 的 机 群 文件 系统 xFS" 的 对 等 架构 


思想 


心 


开始 研制 基于 Linux 机 群 的 超级 计算 机 ， 同 


AND 


每 个 机 群 节点 都 既 


上 将 名 字 空间 和 元 数据 管理 从 数据 读 写 通 


时 开始 了 面向 Linux 


机 群 的 机 群 文件 系统 的 
型 的 3 元 架构 :存储 月 


用 1 


及 务 器 、 元 数据 月 


带 化 的 方式 存储 在 多 个 存储 服务 器 上 。 
子 树 划分 方法 来 划分 名 字 空 间 ， 


CRIN 
(2) 服务 器 端 采 


H 


Id 


e 


访问 的 性 能 1。 


M, 


3 
据 处 j 


导线 和 


DCFS2 是 为 曙光 4000A HERRI 250) 
共享 IP-SAN 来 存储 数据 。 DCFS2 的 贡献 在 于 提 昌 
理 技 术 、 高 效 的 PB 级 存储 空间 管理 技术 和 提高 大 目录 下 文件 名 查找 效率 的 技术 。 元 数 


据 按 层次 结构 粒度 
议 结合 
位 图 


动 


相 结 合 的 方式 来 管 ] 


池 、 缓 存 ， 以 及 网 络 传输 与 磁盘 


CS HORAE 


f 制 的 ， 面 向 PB 级 存储 的 机 群 文件 系统 ， 
Hh 了 解决 海量 元 数据 管理 的 分 布 式 元 数 


提升 大 存储 空间 的 管理 效率 。DCFS2 在 每 个 元 数据 服务 器 上 采 月 
hashing) 技术 来 组 织 和 定位 本 机 所 管理 


的 文件 系统 。 


和 文 


DCFS3 是 为 曙光 5000 超级 计算 机 看 


LionFS 主要 是 解决 机 群 文件 系统 的 高 可 扩 
元 数据 按照 名 字 哈 希 自 动 地 分 布 到 多 个 元 数据 服务 器 
据 的 处 理 与 元 数据 的 存储 分 离 。 另 外 ， 它 还 利用 客户 端的 隐 式 信息 来 进行 服务 器 缓存 、 预 取 


7. 


JAT TT i O 


3 


性 


ob n> NY. 
Hes, GA 


5 


j 全 内 存 元 数据 管 
poU, qm 


a: 


制 。2002 年 研制 出 第 一 个 原型 系统 DCFS1。 与 PVFS1 KW, EK 
民 务 器、 文件 访问 客户 端 。 
与 PVFS1 不 同 之 处 包括 : COD 对 于 元 数据 管理 ， 
放 自 动 地 将 文件 元 数据 分 布 到 多 个 元 数据 服务 器 。 
多 种 机 制 提升 大 数据 


一 个 文件 的 数据 采用 条 


E 
FH 


底层 


地 分 布 于 多 个 元 数据 服务 器 上 , 并 将 两 阶段 提交 协议 与 元 数据 处 理 协 


起 来 ， 是 真正 意义 上 的 分 布 式 元 数据 处 理 60。DCFS2 采用 变 长 分 配 单元 与 存储 资源 
里 PB 级 存储 空间 ! 辐 ， 与 其 它 基于 SAN 的 共享 文件 系统 相 比 ， 大 大 


展 性 ， 它 采用 对 象 存 储 接口 来 存储 文件 数据 。 


采用 两 级 


TH. 


制 的 、 高 可 扩展 、 高 可 靠 的 机 群 文件 系统 ， 它 仍然 


H4" 
的 元 数据 “…， 使 得 大 目录 的 访问 效率 大 大 高 于 传统 


展 哈 希 CExtendible 


元 数据 架构 ,将 元 数 


牛 级 读 写 调度 5 ， 大 大 提升 了 多 个 并 发 读 写 访问 流下 的 聚合 读 写 带宽 。 


来 存储 数据 。 为 充分 利用 曙光 5000 节点 的 大 容 
Lt、 基于 复制 的 元 数据 服务 高 可 用 机 4 
动容 错 的 组 件 间 数 据 传输 机 制 。 在 曙光 5000 上 使 用 1055 个 节点 ， 


15 


量 内 存 来 提升 元 数据 处 理 


着 90、 基于 复制 的 


EE AS do HE ee 


DCFS3 的 峰值 聚合 读 带 宽 
2 万 个 / 秒 〈 文 件 长 度 为 0)。 


HVFS 是 为 电光 6000 超级 计算 机 研制 的 、 面 向 云 计算 中 心 负载 的 
算 中 心 既 要 服务 于 数据 密集 型 大 规模 科学 计算 应 
还 要 作为 互联 网 服务 的 基础 设施 。 


达到 50GB/s， 峰 值 


文件 系统 的 发 


展 脉络 


K 


Du 


达到 30GB/s， 文 件 创建 吞吐 率 达 到 


LEER. Bit 


因此 ， 针 对 不 同 的 应 用 负载 ， 云 计算 ， 


j， 又 要 服务 于 企业 级 数据 存储 需求 ， 甚 至 


心 需要 不 同类 型 的 


共享 文件 系统 ， 包 括 高 性 能 的 并 行文 件 系统 、SAN 文件 系统 和 分 布 式 文件 系统 〈 如 HDFS) 


等 。HVFS 将 这 些 文件 系统 集成 为 一 个 虚拟 的 、 更 大 的 、 全 
问 进行 了 优化 ， 采 有 


对 大 量 并 发 小 文件 访 
DEH) 来 划分 日 录 ， 采 


元 数据 一 起 存储 ， 并 自动 聚合 大 量 小 文人 


局 文件 系统 。 另 外 ，HVFS 还 针 


分 布 式 扩展 哈 希 (Distributed Extendible Hashing, 
] 一 致 性 哈 希 (Consistent Hashing, CH) 来 分 布 元 数据 ， 将 文件 与 
F， 从 而 大 大 提高 小 文件 访问 的 性 能 。 


国际 相 类 似 系 统 


Intel CFS (1989) !&?! 


xFS(1995) ©” 


PVFS1 (1996) P! 


(单元 数据 服务 器 ) 


GPFS (2002) ™ 


(对 称 式 结构 、 无 元 数据 服务 
d) 


Lustre (2002) P” 

(单元 数据 服务 器 、 条 带 化 、 
利用 高 性 能 通信 网 络 的 底层 接 
口 (RDMA)) 


GFS (2003) ^9 
(大 粒度 数据 分 布 ) 


Colossus (2009) 四 
(元 数据 采用 Bigtable、 大 粒度 
数据 分 布 ; ) 


表 2 总 结 了 我 们 过 去 在 机 群 文件 系统 方向 的 工作 ， 以 及 与 相关 系统 的 对 比 。 
表 2. 智能 中 心 在 文件 系统 方向 的 研究 工作 
我 们 的 系统 主要 特点 
PFS 并 行 读 写 接 
(1992-1994) ”条 带 化 
无 专用 的 存储 服务 器 ; 
COSMOS 条 带 组， 
(1996-2000) a RERET 
DCFS1 2 ON 
(2001-2002) 服务 器 端 优化 
多 元 数据 服务 器 ; 
DCFS2 元 数据 按 层 次 结构 的 粒度 分 布 ; 
(2003-2004) ”共享 IP-SAN 设备 ; 
条 带 化 
多 元 数据 服务 器 ; 
LionFS 元 数据 按 名 字 哈 希 分 布 ; 
(2005-2006) ”条 带 化 ; 
多 复 本 
个 LA fs FH 
DCFS3 ua eS 
(2007-2008) 2 
分 布 式 元 数据 处 理 ; 
E 元 数据 分 布 采用 DEH 和 CH; 
优化 小 文件 访问 性 能 
7.2 对 产业 界 的 贡献 


通过 这 些 深入 的 、 系 统 化 的 研究 了] 


发 经 验 , f Ae eA AA 


始 人 、CEO 唐 荣 锋 曾 是 智 


能 中 心 文 从 


CHE, 我 们 不 仅 在 文件 系统 方向 积累 了 丰富 的 丰 
成 果 和 培养 的 学 生 向 产业 界 


究 和 开 
器 射 。 北 京 龙 存 科技 有 限 公 司 的 创 


系统 小 组 的 博士 生 。 


也 在 文件 系统 小 组 学 习 的 5 年 中 ， 
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先后 参加 了 DCFS2. ClusterNES 和 LionFS 的 研制 和 开发 。 作 为 主力 研发 人 员 ， 他 为 这 些 文 
件 系统 的 设计 和 开发 做 出 了 巨大 的 贡献 。 同 时 他 在 参加 这 些 项 目 开 发 的 过 程 中 , 积累 了 丰富 
的 文件 系统 开发 经 验 。2006 年 开始 ， 国 内 很 多 应 用 都 对 海量 数据 的 高 效 存 取 提出 了 迫切 的 
需求 ， 机 群 文件 系统 是 最 有 前 景 的 解决 方案 。 于 是 ， 他 抓 住 时 机 于 2007 年 出 去 创业 ， 创 立 
了 北京 龙 存 科 技 有 限 公司 ,经 过 3 年 多 的 发 展 , 龙 存 公 司 已 经 发 展 成 为 业界 知名 的 存储 公司 ， 
资产 已 超过 亿 元 。 

我 们 对 产业 界 的 另 一 个 贡献 ， 是 将 我 们 的 科研 成 果 LionFS 通过 技术 转移 的 形式 转移 给 
曙光 公司 。 上 曙光 公司 以 LionFS 为 基础 ， 对 它 进行 了 二 次 开发 ， 形 成 了 自己 的 存储 系统 产品 
ParaStor200. Hail, 昌 光 的 ParaStor200 已 经 安装 在 深圳 超 算 中 心 的 曙光 6000 超级 计算 
机 上 ， 高 效 地 管理 曙光 6000 的 16PB 存储 ， 为 多 种 类 型 的 应 用 提供 高 性 能 的 读 写 访问 。 
智能 中 心 的 文件 系统 小 组 还 培养 出 了 一 批 优 秀 的 学 生 ， 在 计算 所 获得 硕士 或 博士 学 位 
后 ， 他 们 有 的 在 大 学 或 科研 院 所 继续 从 事 科 研 工 作 ， 有 的 去 企业 从 事 产品 开发 工作 ， 有 的 自 
己 去 创业 。 表 3 给 出 了 文件 系统 小 组 培养 的 部 分 优秀 毕业 生 , 他 们 在 各 自 的 领域 对 计算 机 事 
业 做 着 贡献 。 

表 3. 文件 系统 小 组 培养 的 部 分 优秀 毕业 生 

学 位 离开 智能 中 心 文件 系统 组 
《毕业 年 份 》 后 的 工作 单位 
伊利 诡 伊 大 学 香槟 分 校 清华 大 学 计算 机 系 

博士 后 副教授 
在 纽约 州立 大 学 石 溪 分 校 
计算 机 系 获得 博士 学 位 
在 普林斯顿 大 学 计算 机 系 


获得 博士 学 位 


现在 的 工作 单位 


博士 (1999) 


员工 (1999) 


硕士 (1999) 


Cluster File Systems 公司 、 
计算 所 、EMC 

英国 克 兰 菲尔德 (Cranfield ) 
博士 (2004) 大 学 博士 后 、 肯 特 (Kent) Xyratex 公司 
大 学 博士 后 


博士 (2002) 自己 创业 


中 国 科学 院 软 件 所 副 古 


Be p 
Zu 


博士 (2004)  DCFS1 国 科 学 院 软件 所 博士 后 


DCFS2、 
(2007 ) ClusterNFS 
LionFS 
博士 (2009) | ClusterNFS EMC 
LionFS P 国 科学 院 计算 技术 
DCFS3 研究 所 助理 研究 员 


创立 北京 龙 存 科技 北京 龙 存 科技 有 
有 限 公 司 CEO 


博士 〈2010) 
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我 们 用 表 4 来 总 结 文件 系统 的 发 展 脉络 。 表 4 从 技术 背景 、 负 载 特征 、 创 新 技术 、 性 能 


文件 系统 的 发 展 脉络 


评价 标准 等 方面 对 比 了 各 种 文件 系统 。 

在 当今 这 个 信息 化 时 代 , 数据 成 为 推动 计算 机 科学 快速 发 展 的 重要 因素 。 随 着 新 应 用 的 
秆 勃 发 展 和 数据 量 的 激增 ， 有 很 多 问题 有 亚 待 解决 。 在 这 篇 文章 中 ， 我 们 粗略 回顾 了 文件 系统 
的 发 展 历程 ,并且 粗浅 地 探讨 了 未 来 的 数据 中 心 文件 系统 可 能 的 技术 创新 。 期 望 借 此 与 广大 
同行 交流 。 


表 4. 文件 系统 的 发 展 脉络 


Br ”产生 的 负载 典型 性 能 评价 
主要 的 创新 技术 5 
段 BRER 特征 代表 din E 
it FEY S gt: A 
| mum 树 型 目录 结构 
单 oe 索引 节点 (i-node) eS yk 
机 ”分 时 操作 系 E 流 式 访问 接口 d 
x 统 多 用 户 并 发 访问 。 Ts 柱 面 组 
|t “多 用 户 共享 多 进程 并 发 访问 ap 元 数据 修改 日 志 。 ”聚合 读 写 带 
系 weet B+ 树 组 织 5 
A zr 写 时 复制 
存储 池 
h 局 域 网 NES XDR 
TCP/IP 协议 “多 客户 端 共享 访 AFS RPC By leh ii 
RAID 问 NAS VFS LE 
a OCS — 多 用 户 共享 访问 ”SAN 文件 系 ”无 状态 服务 器 "s 
go 络 统 多 服务 器 结构 
并 7 一 个 作业 的 多 任 
. MPP 超级 ; = C " 
QE 2 AN E eu XP CHE 
SC ee DURES TU i 并 行 读 写 接口 rg eds 
” ”高 性 能 互 连 问 Vesta enon " a 
件 元 数据 管理 与 数据 H 
系 网 络 TORT PVFS 存储 分 高 
a 并 行 编程 EBMKN — Lustre TUB 
A 并 行 处 理 
分 E POSIX 接口 和 语 ” 读 写 请 求 响 
布 “搜索 引擎 。 数 于 万 在 线 并 发 。 ps M mms cina E 
^ 关 网 服务 yj n i 
> si HDES 集中 管理 、 分 散 存 RWIE 
"a de oc s 数 万 并 发 大 粒度 Haystack —— fif E 
> ^* wi TFS 全 内 存 元 数据 处 理 ”聚合 读 写 带 
统 多 个 复 本 宽 
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